如今,合作多代理系统用于学习如何在大规模动态环境中实现目标。然而,在这些环境中的学习是具有挑战性的:从搜索空间大小对学习时间的影响,代理商之间的低效合作。此外,增强学习算法可能遭受这种环境的长时间的收敛。本文介绍了通信框架。在拟议的沟通框架中,代理商学会有效地合作,同时通过引入新的状态计算方法,状态空间的大小将大大下降。此外,提出了一种知识传输算法以共享不同代理商之间的获得经验,并制定有效的知识融合机制,以融合利用来自其他团队成员所收到的知识的代理商自己的经验。最后,提供了模拟结果以指示所提出的方法在复杂学习任务中的功效。我们已经评估了我们对牧羊化问题的方法,结果表明,通过利用知识转移机制,学习过程加速了,通过基于状态抽象概念产生类似国家的状态空间的大小均下降。
translated by 谷歌翻译
在本文中,我们提出了一种一阶分布式优化算法,该算法对拜占庭式失败 - 肢体和潜在的对抗性行为非常强大,在该行为中,所有参与的药物都容易发生失败。我们随着时间的推移将每个代理的状态建模为两国马尔可夫链,该链在不同时间时指示拜占庭或可信赖的行为。我们在任何给定时间均未设置对拜占庭代理的最大数量的限制。我们根据三层防御设计我们的方法:1)时间稳健聚集,2)空间稳健聚集和3)梯度归一化。我们研究了两个用于随机优化的设置,即样品平均近似值和随机近似。我们提供了强烈凸出和平滑非凸成本功能的方法的收敛保证。
translated by 谷歌翻译
我们研究了随机线性匪徒(LB)中的两个模型选择设置。在我们将其称为特征选择的第一个设置中,LB问题的预期奖励是$ M $特征映射(模型)中至少一个的线性跨度。在第二个设置中,LB问题的奖励参数由$ \ MATHBB r ^ d $中表示(可能)重叠球的$ M $模型任意选择。但是,该代理只能访问错过模型,即球的中心和半径的估计。我们将此设置称为参数选择。对于每个设置,我们开发和分析一种基于从匪徒减少到全信息问题的算法。这允许我们获得遗憾的界限(最多超过$ \ sqrt {\ log m} $ factor)而不是已知真实模型的情况。我们参数选择算法的遗憾也以模型不确定性对数进行缩放。最后,我们经验展现了使用合成和现实世界实验的算法的有效性。
translated by 谷歌翻译